卷积神经网络:机器如何 “看懂” 图片?
如果说普通人工神经网络是机器的 “基础思考回路”,那卷积神经网络(CNN)就是专为 “看图片” 设计的 “视觉专用回路”—— 它能像人眼一样,先抓局部细节(比如五官、花纹),再拼出整体,高效解决图片识别、分类问题,是自动驾驶视觉、拍照识物的核心技术。
如果说普通人工神经网络是机器的 “基础思考回路”,那卷积神经网络(CNN)就是专为 “看图片” 设计的 “视觉专用回路”—— 它能像人眼一样,先抓局部细节(比如五官、花纹),再拼出整体,高效解决图片识别、分类问题,是自动驾驶视觉、拍照识物的核心技术。
2025年9月,马斯克旗下xAI推出的Grok-4-fast直接把有“路由器”加持的GPT5给比下去了,这事在AI圈直接炸了锅,大家一开始都觉得,肯定是马斯克又砸钱堆显卡了,毕竟之前AI要快,基本都是靠加算力硬堆。但后来扒了扒细节才发现,这事可能跟英伟达的算法
证明的核心是 **“利用基本解的 Dirac 函数性质,结合分部积分将 Laplace 算子的作用转化为梯度的卷积”**,将函数 u 表示为其梯度与基本解梯度的卷积,为后续 Sobolev 嵌入或 Besov 正则性分析提供 “积分表示” 的工具。
本文提出频率动态卷积(FDConv),通过在傅里叶域构建频率多样化权重,以固定参数预算显著提升模型频率适应性。该方法在目标检测、分割等任务中性能卓越,仅增加3.6M参数即可优于现有动态卷积方法,且易于集成至多种网络架构。>>更多资讯可加入CV技术群获取了解哦
基于测序的空间转录组(ST)数据在每个 spot 中可能包含 0 到多个细胞,这些细胞可能完全被 spot 覆盖,也可能只是部分被覆盖,具体取决于平台的空间分辨率以及组织细胞的密度。数据的这一特点意味着一个 spot 内可能存在细胞类型的混合,因此也会出现转录
在“三北”工程的内蒙古植树造林中,植树位点(树坑)常被复杂背景“淹没”,让无人机检测频频漏检、错检。本文提出的 YOLOv10-MHSA 模型,通过小目标检测层、多头自注意力机制、可变卷积核等多项改进,让检测精度提升至 96.1%,准确率达到 92.1%,为无
国家知识产权局信息显示,中移(杭州)信息技术有限公司;中国移动通信集团有限公司申请一项名为“图像超分辨率重建方法、装置、设备、介质及程序产品”的专利,公开号CN120430937A,申请日期为2024年02月。
本文汇总了多篇围绕YOLOv12这一实时目标检测前沿模型的最新研究论文。内容涵盖其核心架构创新(如高效注意力机制、轻量化设计),在特定场景(水下探测、果园绿色水果识别、无人机追踪)中相比前代模型或其他架构(如RF-DETR)的性能对比与优化方案,以及利用合成数
本文通过提高模型表示的多样性来解决异常响应消失的问题。本文提出的双分支知识蒸馏(DBKD)模型中的多尺度输入重建分支通过恢复输入的多尺度表示来提高其表示能力。
受限于设备的计算能力和存储空间,如何让端侧模型在资源有限的情况下变得更聪明、更高效,成为了AI产品经理的一个关键挑战。本文将详细介绍九种前沿技术,希望能帮到大家。
通过神经网络估计股票走向是一个复杂但具有潜力的任务,通常涉及时间序列预测和金融数据的非线性建模。以下是实现这一目标的关键步骤和注意事项:
昨天提到二审定性分析有两个细节问题值得关注,一是审查经营者是否就AI模型享有竞争权益时,不能抛开被诉行为而泛谈经营者所具有的竞争优势或交易机会,应当结合被诉行为对于竞争秩序等的损害来判断。二是AI模型领域的商业道德问题。
由基础科学研究院(IBS)、延世大学和马克斯·普朗克研究所组成的国际科研团队,近日开发出一项突破性人工智能技术,使机器视觉首次逼近人脑处理视觉信息的方式。这项名为Lp-卷积的创新方法,在提升图像识别系统精准度的同时,大幅降低了传统AI模型的计算需求。
国家知识产权局信息显示,江苏鸿程大数据技术与应用研究院有限公司申请一项名为“一种基于预训练语言模型融合深度卷积网络的文本分类方法”的专利,公开号CN120011558A,申请日期为2025年01月。
国家知识产权局信息显示,上海壁仞科技股份有限公司申请一项名为“逐通道卷积装置及其操作方法”的专利,公开号CN120010922A,申请日期为2025年04月。
自计算机诞生以来,人们就一直将机器比作大脑。这其中就包括两位计算机之父——约翰·冯·诺依曼撰写了一本名为《计算机与大脑》的书,而艾伦·图灵则在1949年说过:“最终,我不明白为什么计算机在大多数领域无法与人类智力平等竞争。”